BIJUNG:11.4.3 역전파 가능한 계획: 미분 가능한 모델을 통한 직접적인 정책 그라디언트 전파